08. RNN 超参数

RNN 超参数

1‘58’‘视频改为:显示在有 LSTM cell的情况下;

LSTM 与 GRU 对比

"这些结果清楚地表明了门控单元较于传统循环单元的优点。收敛往往更快,而且最终的解决方案往往会更好。但是,我们的结果在
比较 LSTM 和 GRU 方面并非决定性的,这表明门控循环单元类型的选择可能在很大程度上取决于数据集和相应的任务。"

根据序列建模的门控循环神经网络的实证评估,作者:Junyoung Chung、Caglar Gulcehre、KyungHyun Cho、Yoshua Bengio

"除了语言建模,GRU 在所有任务上都胜过了 LSTM"

循环网络架构的实证探索作者:Rafal Jozefowicz、Wojciech Zaremba、Ilya Sutskever

"我们一致的发现是至少两层的深度是有益的。但是,在两层和三层之间,我们的结果不太一致。此外,LSTM 和 GRU 之间的结果也不一致,但都显著优于 RNN。"

可视化和理解循环网络,作者:Andrej Karpathy、Justin Johnson、Li Fei-Fei

"哪些变体最好?它们的差异是否重要?Greff, et al. (2015) 对常用的变体进行了详尽的对比,发现它们都差不多一样。Jozefowicz, et al. (2015) 测试了超过一万个 RNN 架构,发现某些在特定任务上的性能优于 LSTM。"

理解 LSTM 网络,作者:Chris Olah

RNN 架构示例

应用 Cell 大小 词汇 嵌入大小 学习率
语音识别(大词汇表) LSTM 5, 7 600, 1000 82K, 500K -- -- paper
语音识别 LSTM 1, 3, 5 250 -- -- 0.001 paper
机器翻译 (seq2seq) LSTM 4 1000 原词汇:160K,目标词汇:80K 1,000 -- paper
图片字幕 LSTM -- 512 -- 512 (固定) paper
图像生成 LSTM -- 256, 400, 800 -- -- -- paper
问题回答 LSTM 2 500 -- 300 -- pdf
文本总结 GRU 200 原词汇:119K,目标词汇:68K 100 0.001 pdf